近年来,随着深度神经网络方法的普及,手术计算机视觉领域经历了相当大的突破。但是,用于培训的标准全面监督方法需要大量的带注释的数据,从而实现高昂的成本;特别是在临床领域。已经开始在一般计算机视觉社区中获得吸引力的自我监督学习(SSL)方法代表了对这些注释成本的潜在解决方案,从而使仅从未标记的数据中学习有用的表示形式。尽管如此,SSL方法在更复杂和有影响力的领域(例如医学和手术)中的有效性仍然有限且未开发。在这项工作中,我们通过在手术计算机视觉的背景下研究了四种最先进的SSL方法(Moco V2,Simclr,Dino,SWAV),以解决这一关键需求。我们对这些方法在cholec80数据集上的性能进行了广泛的分析,以在手术环境理解,相位识别和工具存在检测中为两个基本和流行的任务。我们检查了它们的参数化,然后在半监督设置中相对于训练数据数量的行为。如本工作所述和进行的那样,将这些方法的正确转移到手术中,可以使SSL的一般用途获得可观的性能 - 相位识别率高达7%,而在工具存在检测方面,则具有20% - 半监督相位识别方法高达14%。该代码将在https://github.com/camma-public/selfsupsurg上提供。
translated by 谷歌翻译
临床医生在手术室(OR)的细粒度定位是设计新一代或支持系统的关键组成部分。需要基于人像素的分段和身体视觉计算机的计算机视觉模型检测,以更好地了解OR的临床活动和空间布局。这是具有挑战性的,这不仅是因为或图像与传统视觉数据集有很大不同,还因为在隐私问题上很难收集和生成数据和注释。为了解决这些问题,我们首先研究了如何在低分辨率图像上进行姿势估计和实例分割,而下采样因子从1x到12倍进行下采样因子。其次,为了解决域的偏移和缺乏注释,我们提出了一种新型的无监督域适应方法,称为适配器,以使模型从野外标记的源域中适应统计上不同的未标记目标域。我们建议在未标记的目标域图像的不同增强上利用明确的几何约束,以生成准确的伪标签,并使用这些伪标签在自我训练框架中对高分辨率和低分辨率或图像进行训练。此外,我们提出了分离的特征归一化,以处理统计上不同的源和目标域数据。对两个或数据集MVOR+和TUM-或TUM-或测试的详细消融研究的广泛实验结果表明,我们方法对强构建的基线的有效性,尤其是在低分辨率的隐私性或图像上。最后,我们在大规模可可数据集上显示了我们作为半监督学习方法(SSL)方法的普遍性,在这里,我们获得了可比较的结果,而对经过100%标记的监督培训的模型的标签监督只有1%。 。
translated by 谷歌翻译
绑架性自然语言推断(\ alpha {} nli)的任务是确定哪种假设是一组观察的可能性更可能的解释,是NLI的特别困难类型。与其仅仅确定因果关系,还需要常识,还需要评估解释的合理性。所有最新的竞争系统都以情境化表示为基础,并利用变压器体系结构来学习NLI模型。当某人面对特定的NLI任务时,他们需要选择可用的最佳模型。这是一项耗时且资源浓厚的努力。为了解决这个实用问题,我们提出了一种简单的方法来预测性能,而无需实际调整模型。我们通过测试预先训练的模型在\ alpha {} NLI任务上的性能如何,仅将具有余弦相似性的句子嵌入到训练这些嵌入式的分类器时所达到的性能。我们表明,余弦相似方法的准确性与Pearson相关系数为0.65的分类方法的准确性密切相关。由于相似性计算是在给定数据集上计算的数量级(少于一分钟与小时),因此我们的方法可以在模型选择过程中节省大量时间。
translated by 谷歌翻译